一 . 简介

可视化单一变量,一次只研究一个变量。

二 . bar charts

要研究定型变量的分布一般选用柱状图。

  1. x 代表分类
  2. y 代表频率(数量)
  3. 一般基线从0开始,以免数据失真
  4. 如果分类没有顺序(如 男女) 则按 y 高低排序比较好
  5. 如果分类有顺序(如 月份),则保持原状
  6. 如果分类很多或名字很长,可以选择90度 用水平柱状图更好。(如编程语言的使用率对比)

三 . python 实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
import matplotlib

df = pd.read_csv('***.csv')
sns.countplot(data=df, x='status'); # ;好可隐藏图标内存地址

base_color = sns.color_palette()[0] #获取颜色
category_index = df['category'].value_counts().index #获取排序索引

sns.countplot(data=df, x='category', color=base_color, order=category_index); # x 换成 y 则为水平柱状图